NLP 的发展：从技术原理到哲学设计

#nlp #llm

NLP 的发展：从技术原理到哲学设计

一、符号主义时代（1950s–1980s）

早期 NLP 建立在乔姆斯基的形式语法理论之上。核心假设是：语言是一套可以被规则穷举的符号系统。

技术上表现为手写规则、正则表达式、上下文无关文法（CFG）、语法树解析。典型系统如 ELIZA（1966），通过模式匹配模拟对话，本质上没有任何"理解"。

哲学立场：语言是逻辑的、可形式化的。这是理性主义的延伸——认为人类语言能力来自先天的、结构化的规则系统。

局限很明显：自然语言充满歧义、隐喻、省略，规则系统无法覆盖真实世界的复杂性。

二、统计学习时代（1990s–2012）

转折点是从"规则"转向"概率"。不再试图穷举规则，而是从大量语料中学习统计规律。

关键技术：

n-gram 语言模型：用前 n-1 个词预测下一个词，P(w_n | w_1...w_{n-1})
HMM（隐马尔可夫模型）：用于词性标注、命名实体识别
CRF（条件随机场）：序列标注的判别式模型
TF-IDF + SVM/朴素贝叶斯：文本分类的经典范式

哲学转向：从理性主义走向经验主义。不再假设语言有完美的内在结构，而是承认——语言的规律性可以从数据中涌现。这暗合了维特根斯坦后期的观点：词的意义在于其使用（meaning is use）。

但统计方法的表征能力有限，特征工程严重依赖人工设计，模型看到的是"词袋"而非"语义"。

三、分布式语义与词向量（2013–2017）

Word2Vec（2013）是一个分水岭。核心思想极其简洁：一个词的意义由它的上下文决定（distributional hypothesis）。

技术实现：通过浅层神经网络（CBOW/Skip-gram），将词映射到低维稠密向量空间。结果发现向量空间中出现了语义算术：king - man

woman ≈ queen。

随后 GloVe、FastText 进一步发展。RNN/LSTM 开始处理序列依赖，Seq2Seq + Attention 机制（2014–2015）让机器翻译取得突破。

哲学意义深远：语义不再是离散符号的对应关系，而是连续空间中的几何关系。这是对索绪尔结构主义语言学的一种计算实现——意义来自差异和关系，而非事物本身。

四、Transformer 与预训练范式（2017–2022）

Attention Is All You Need（2017）彻底改变了架构。Transformer 抛弃了 RNN 的顺序处理，用自注意力机制让每个 token 直接与序列中所有其他 token 交互。

核心公式：Attention(Q,K,V) = softmax(QK^T / √d_k)V

这带来了两个革命性变化：

并行计算，训练效率大幅提升
长距离依赖建模能力质的飞跃

随后是预训练范式的爆发：

BERT（2018）：双向掩码语言模型，"完形填空"式预训练
GPT 系列（2018–）：自回归语言模型，"预测下一个词"
T5、XLNet、RoBERTa 等变体百花齐放

哲学层面，这里出现了一个深刻的问题：当模型仅仅通过"预测下一个词"就能展现出推理、翻译、摘要、编程等能力时，语言理解的本质到底是什么？

这直接挑战了传统的"理解需要 grounding"的观点。Bender & Koller（2020）提出"随机鹦鹉"批评——认为语言模型只是在操纵形式而非理解意义。但反对者指出，如果行为上无法区分，"理解"这个概念本身是否需要重新定义？这本质上是图灵测试哲学的当代版本。

五、大语言模型时代（2022–至今）

GPT-3.5/4、Claude、Gemini 等模型展现出涌现能力（emergent abilities）：当模型规模跨过某个阈值，突然出现训练目标中未明确优化的能力——少样本学习、思维链推理、代码生成。

关键技术演进：

Scaling Laws：性能与参数量、数据量、计算量的幂律关系
RLHF（人类反馈强化学习）：对齐模型输出与人类偏好
Chain-of-Thought：通过中间推理步骤提升复杂推理能力
RAG（检索增强生成）：外接知识库弥补参数化记忆的局限
MoE（混合专家模型）：稀疏激活提升效率

六、哲学反思：几个核心张力

形式 vs 意义：语言模型从未接触过物理世界，它的"知识"完全来自文本。这够不够构成理解？如果我们接受维特根斯坦的"语言游戏"理论——意义在语言实践中产生——那么在文本这个语言游戏中，模型或许确实获得了某种意义。但如果我们坚持 Harnad 的"符号接地问题"，纯文本永远不够。

压缩即智能：Hutter Prize 的核心洞见是，数据压缩等价于预测，预测等价于理解。语言模型本质上是一个极其强大的压缩器。如果智能就是对世界模型的压缩表征，那么足够好的语言压缩是否等价于世界理解？

工具论 vs 主体论：当前的 LLM 是工具还是某种程度的认知主体？这不仅是哲学问题，更是伦理和政策问题。我们对它的定位决定了我们如何设计对齐策略、如何分配责任。

涌现与还原：涌现能力的存在暗示，智能可能不是组件的简单叠加，而是复杂系统在规模上的相变。这与复杂性科学、涌现论哲学深度
共鸣——整体大于部分之和。

NLP 的发展轨迹，从规则到统计，从特征工程到端到端学习，从任务专用到通用基础模型，本质上是一条不断放弃人类先验、让数据和计算自行发现结构的道路。这条路走到今天，反过来迫使我们重新审视：语言是什么，理解是什么，智能又是什么。这些问题已经不再只属于哲学系的研讨室，而是每一个训练 loss 下降曲线背后的实在追问。